# PATENT ABSTRACTS OF JAPAN

(11)Publication number:

10-283192

(43) Date of publication of application: 23.10.1998

(51)Int.CI.

G06F 9/45

(21)Application number: 09-090470

(71)Applicant: HITACHI LTD

(22)Date of filing:

09.04.1997

(72)Inventor: TANAKA GIICHI

ITO SHINICHI TSUSHIMA YUJI

# (54) PREFETCHING CODE GENERATION SYSTEM

## (57)Abstract:

PROBLEM TO BE SOLVED: To hide a main memory penalty in the case that a data area accessed by a loop exceeds a cache capacity by dividing an inner side loop into two and starting the prefetching of data in a second half loop at the time of the repetition of an outer side loop one before for the data required in a first half loop and in the first half loop for the data required in the second half loop.

SOLUTION: The inner side loop is divided into two and a code for incorporating the prefetching processing of the data required at the first part of the repetition processing of the outer side loop one after in the second half loop 41 and incorporating the prefetching of the data required in a second half in the repetition processing of the same outer side loop in the first half loop 40 is generated. For the distribution of the front half loop 40 and the second half loop 41, the processing time of the second half loop 41 is turned to be more than main memory penalty time. In the case that the



processing time of the second half loop 41 can not be turned to be more than the main memory penalty, loop development is performed relating to the outer side loop and an arithmetic amount is increased so as to completely hide the main memory penalty.

### **LEGAL STATUS**

[Date of request for examination]

[Date of sending the examiner's decision of rejection]

[Kind of final disposal of application other than the examiner's decision of rejection or application converted registration]

[Date of final disposal for application]

[Patent number]

[Date of registration]



[Number of appeal against examiner's decision of rejection]
[Date of requesting appeal against examiner's decision of rejection]
[Date of extinction of right]

Copyright (C); 1998,2003 Japan Patent Office

THIS PAGE BLANK (USPTO)

#### (19)日本国特許庁(JP)

# (12) 公開特許公報(A)

(11)特許出願公開番号

# 特開平10-283192

(43)公開日 平成10年(1998)10月23日

(51) Int.Cl.<sup>6</sup>

識別配号

FΙ

G06F 9/45

G06F 9/44

322G

#### 審査請求 未請求 請求項の数5 OL (全 10 頁)

| (21)出願番号 | 特願平9-90470     | (71) 出願人 000005108    |
|----------|----------------|-----------------------|
|          |                | 株式会社日立製作所             |
| (22) 出願日 | 平成9年(1997)4月9日 | 東京都千代田区神田駿河台四丁目 6 番地  |
|          |                | (72)発明者 田中 義一         |
|          |                | 東京都国分寺市東恋ケ窪一丁目280番地   |
|          |                | 株式会社日立製作所中央研究所内       |
|          |                | (72)発明者 伊藤 信一         |
|          |                | 神奈川県横浜市戸塚区戸塚町5030番地 株 |
|          |                | 式会社日立製作所ソフトウェア開発本部内   |
|          |                | (72)発明者 對馬 雄次         |
|          |                | 東京都国分寺市東恋ケ窪一丁目280番地   |
|          |                | 株式会社日立製作所中央研究所内       |
|          |                | (74)代理人 弁理士 小川 勝男     |
|          |                |                       |

### (54)【発明の名称】 ブリフェッチコード生成方式

### (57)【要約】

ータ領域がキャッシュ容量を超えた場合に、主記憶ベナルティを隠蔽するオブジェクト生成方式を提供する。 【解決手段】内側ループ処理を2つにわけ、後半ループで、1つ先の外側ループの繰り返しの処理の最初の方で必要となるデータのプリフェッチ処理を組み込み、前半ループで、同一外側ループの繰り返し処理で、後半で必要となるデータのプリフェッチ処理を組み込むコードを生成することで達成される。ここで、ループの分配は後半ループの処理時間が主記憶ベナルティ時間以上となるように行う。

【課題】多重ループにおいて、ループでアクセスするデ

### 【特許請求の範囲】

【請求項 】】ソースプログラムをオブジェクトプログラムにコンパイルする方式において、上記ソースプログラムの多重ループ部分に対して、上記多重ループのそれぞれがループの実行の直前にはループ実行回数が決まるループの場合、上記多重ループのうち外側ループをループ1、最内側ループをループ2とするとき、上記ループ2内にある演算で必要となるデータの一部を、上記ループ1に関して前のループ繰り返し処理時に、キャッシュに転送するプリフェッチコードを生成することを特徴とす10るコード生成方式。

【請求項2】ソースプログラムをオブジェクトプログラ ムにコンパイルする方式において、上記ソースプログラ ムの多重ループ部分に対して、上記多重ループのそれぞ れがループの実行の直前にはループ実行回数が決まるル ープの場合、上記多重ループのうち外側ループをループ 1, 最内側ループをループ2とするとき、上記ループ2 を2つのループ繰り返し範囲に分割し、それぞれを前半 ループ,後半ループとするとき、上記後半ループのコー ドは、上記ループ ] に関して次の繰り返し処理時に上記 前半ループの演算の最初に必要となるデータをキャッシ ュに転送するプリフェッチコードともともとのコードか らなり、上記前半ループのコードは、上記前半ループの 演算で必要となるデータのうち、上記後半ループでキャ ッシュに転送されるデータ以外のデータをキャッシュに 転送するプリフェッチコードともともとのコードとから なることを特徴とするコード生成方式。

【請求項3】請求項2のコード生成方式において、上記ループ2のループ繰り返し範囲の分割において、上記後半ループの繰り返し数は、上記後半ループの処理時間を推定し、上記処理時間がメモリからキャッシュへの転送時間である主記憶アクセスペナルティを超えるように求めた推定ループ繰り返し数か、もともとの上記ループ2のループ繰り返し数のうち小さい繰り返し数を設定するととを特徴とするコード生成方式。

【請求項4】請求項3のコード生成方式にて、上記後半ループの処理時間を推定し、上記処理時間がメモリからキャッシュへの転送時間である主記憶ペナルティを超える推定ループ繰り返し数が、ある与えられた基準値より、大きい時は、ループ1に関してルーブ展開ができないか解析を行い、展開可能な場合、展開後の上記後半ループの処理時間を推定し、上記処理時間がメモリからキャッシュへの転送時間である主記憶アクセスペナルティを超える推定ループ繰り返し数が、上記基準値より小さくなるまでループ1に関するループ展開を行ったコードを生成することを特徴とするコード生成方式。

【請求項5】請求項2のコード生成方式にて、上記ブリフェッチが必要なルーブ繰り返し間隔数を求め、上記後半ループのコードは、上記ループ1に関して次の繰り返し処理時に上記前半ループの演算の最初に必要となるデ 50

ータをキャッシュに転送するブリフェッチコードともともとの処理コードを上記展開数分だけ複製したものからなり、上記前半ループのコードは、上記前半ループの演算で必要となるデータのうち、上記後半ループでキャッシュに転送されるデータ以外のデータをキャッシュに転送するプリフェッチコードともともとの処理コードを上記展開数分だけ複製したコードからなることを特徴とす

## るコード生成方式。 【発明の詳細な説明】

[0001]

【発明の属する技術分野】本発明は、命令レベル並列処理を行うプログラムの実行方式に係わり、プログラムがアクセスするデータが大きく、キャッシュに入りきれない場合のループに好適なコード生成方式に関する。

#### [0002]

【従来の技術】スーパコンピュータの1つの方向として、スカラブロセッサをノードプロセッサとする並列処理方式が有望視されている。スカラブロセッサを用いた並列スーパコンピュータが期待されるのは、半導体技術の進歩によるクロック周波数の向上、複数の並列実行可能な演算器を有効に生かすスーパスカラ方式等の命令レベル並列処理の実現により、スカラブロセッサの処理性能が飛躍的に向上しているためである。しかしながら、その高いスカラブロセッサ処理能力は、キャッシュが有効に働くときにのみ達成される。

【0003】スカラブロセッサは、一般的に命令処理装置とキャッシュ及びメモリ装置を有する。スカラブロセッサはメモリにプログラムとデータを格納し、プログラムに記述された命令に従いメモリ中のデータを処理する。キャッシュは命令処理装置からの参照時間の短い比較的小容量の記憶手段であり、ブログラム及びデータの一部を一時的に格納する。命令実行にあたり必要なデータはメモリから読み出されるが、同時にデータを含むデータブロックはキャッシュを構成するラインにコピーされ、以後当該ブロック内のデータに対する参照が指定されたときは上記キャッシュのラインからデータを参照する。このメモリからキャッシュラインへのデータブロックの転送をライン転送と呼ぶ。

【0004】命令実行にあたり必要データがキャッシュにない場合、これをキャッシュミスと呼ぶが、キャッシュミスが発生するとライン転送が実行される。従来のスカラブロセッサでは命令実行に伴いこのライン転送が発生すると、その完了まで当該命令の実行が待ち合わされる。従って、キャッシュミスが多発するとライン転送に伴う待ち合わせによりプログラムの実行時間が増大し、スカラプロセッサの処理性能が劣化するという問題があった。特に、大規模科学技術計算では、データ領域が大きく、データの局所性が少ないという性質があるためキャッシュミスによる性能低下は深刻であった。

【0005】とれに対し、最近では予めプログラムにお

いて、キャッシュミスを引き起こす可能性のある命令に 先だってデータの先読みを指示する特殊な命令を実行さ せるととで上記ライン転送に伴う性能劣化を回避する試 みがなされている。このデータ先読みをプリフェッチと 呼ぶ。例えば、米国IBM社のマイクロプロセッサPowe rPC では指定したオペランドアドレスに位置するデー タをキャッシュに読み込むプリフェッチ命令がある。と の動作において、キャッシュミスを発生した場合、プリ フェッチ命令の完了を待ち合わせることなくライン転送 .を行う。従って上記データを参照する命令を実行する時 10 には上記データがキャッシュに入っているために上記性 能劣化が回避される。

【0006】とのようなプリフェッチ命令を利用して、 データ転送と演算をオーバラップさせることで、実質的 に主記憶レイテンシを隠蔽させるコード生成技術が論文 ToddC.Mowry, Monica S.Lam, Anoop Gupta Design and Evaluation of a CompilerAlgorithm for Prefetchin q1 ASPLOS-V, ACM 0-89791-535-6/92/0010/0062 pp.62-73に示されている。

#### [0007]

【発明が解決しようとする課題】しかしながら、上記の 従来のコード生成技術では以下に記すような問題があっ た。図2に示すようなDO20(20)及びDO10 (21)で示される多重ループに対するプリフェッチコ ードの生成において、内側ループDO10(21)のみ しか考慮されていなかった。このことを例を用いて具体 的に問題点を示す。

【0008】まず、以下のコード生成で前提としたアー キテクチャの仮定を述べる。対象とするスカラプロセッ サはロード/ストア命令が2個、浮動小数点演算が2 個、及び整数演算が2個、同時に実行でき、キャシュラ インサイズが32バイト、キャッシュミス時の主記憶べ ナルティを75サイクルと仮定する。

【0009】図2のソースプログラムに対して、コンパ イラは、まず、ローカリティ解析などによりプリフェッ チ対象オペランドを探す。その結果、参照b(i,j) 22がプリフェッチ対象オペランドであるとする。オペ ランドの大きさを8バイトとすると、1回のプリフェッ チで、対象とするオペランドを含む連続した32バイト しどとにプリフェッチ命令を実行していたのでは無駄 で、との例の場合、4回に1回の割合でプリフェッチ命 令を出力すればよい。このため、一般的には、コンパイ ラのループ構造変換部で、最内側ループ21に関して4 倍のループ展開を行う。

【0010】との結果を図3に示す。とこで、ループ2 1がループ25とループ26に分割されている。ループ 26は、ループ展開の余りループである。以後、簡単の ため、ループ展開の余りループに関しては省略すること にする。そして、通常の最適化、コード生成の後に、プ 50 以下の問題がある。通常、このようなループの構造変換

リフェッチコードの生成を行う。

【0011】プリフェッチコードの生成は以下のように 行う。まず、ループ25のループ1回あたりの実行サイ クル数を推定する。ループ25では、ロード命令が4 個、ストア命令4が4個、浮動小数点演算が4で、プリ フェッチ命令が1であるので、ループ1回あたりの処理 サイクル数は5サイクル (= max (ceil ((4+4+1) /2), 2/2)と推定できる。 CCで、ceil関数は、 引数の値を超えない最小の整数を意味する。キャッシュ ミス時の主記憶ペナルティは75サイクルであるので、 ループ処理では、15回(ceil(75/5)=15)後 で使用されるデータのプリフェッチを行うコードを生成 すると、主記憶ペナルティを隠蔽することができる。 【0012】図4は、図3のコードにプリフェッチ命令 を付加したものである。ととでA部30は、ループ繰り 返しの最初の方で必要となるデータのプリフェッチを行 う部分、B部31は演算処理とループ繰り返しに関して 15回後で使用するデータのプリフェッチ命令を含むル ープ部分、C部32はループ処理の後半部でプリフェッ 20 チ命令を含まないループ部分である。

【0013】図5はその時の実行の様子を模式的に示し たものである。横軸が時間、斜線箱がブリフェッチ処 理、空箱が演算処理である。ただし、図面の都合上、図 4のプログラムとは数値的に一致はしていない。つま り、図4のA部は15回のプリフェッチループである が、図5では、3回に省略されている。ととで、問題で あるのは、A部であり、主記憶アクセスペナルティが顕 在化する。これは、特にループ処理回数が小さい場合に 問題となる。

【0014】以下では、とのコードの性能をみつもる。 ループ長がN=1\_0\_0の場合、A部の実行時間は、少な くとも主記憶アクセスペナルティの75サイクル、B部 は50サイクル (ループ1回あたり5サイクル×ループ 10回実行)、そしてC部は60サイクル(ループ1回 あたり4サイクル×ループ15回実行). で計185サイ クルで、全体の時間の内40%(75/185×100 %)が主記憶待ちのオーバヘッドとなっている。さら に、ループ長が50と小さい場合には、A部は少なくと も75サイクル、B部はループ長が小さいため実行され のデータがキャッシュ に格納されるため、ループ繰り返 40 ず 0 サイクル、C部は、4 8 サイクル (ループ 1 回あた り4サイクル×ループ12回実行)で、計133サイク ルで、全体の時間の内56% (75/133×100 %)が主記憶待ちのオーバヘッドとなる大きな問題があ る。A部で、少なくとも75サイクルと書いたのは、現 実の計算機では、同時に処理できるプリフェッチ命令の 数には限界があるためである。ことでは、十分大きいと 仮定した。

> 【0015】また、上記で説明したプリフェッチ命令の 削減のための内側ループ展開法を用いたコード生成は、

はコンパイラの前半部分で行われ、その後、最適化処理が施され、コード生成部でプリフェッチ命令が挿入されると考えられる。こうすると、コンパイラ処理の大半で、ルーブ展開による大きな中間語を扱わねばならず、長大なコンパイル時間が必要になる。ここでは、ラインサイズ32パイトでの例を示したため、高々4倍の展開であったが、ラインサイズ128パイトの計算機では16倍展開ものルーブ展開が必要となり、さらに深刻となる。

【0016】本発明の目的は、上記の問題点を解決する 10 プリフェッチ命令を用いたコード生成方式を提供するととにある。

#### [0017]

【課題を解決するための手段】上記の目的は、図6に示すように、内側ループ処理を2つにわけ、後半ルーブ41で、1つ先の外側ループの繰り返しの処理の最初の方で必要となるデータのプリフェッチ処理を組み込み、前半ループ40で、同一外側ループの繰り返し処理で、後半で必要となるデータのプリフェッチ処理を組み込むコードを生成することで達成される。

[0018] 例では、外側ループ」=1の、内側ループ I=3,4,5,6,7の処理の際に、外側ループ」=2の内側ループ I=1,2,3,4,5で必要となるデータをプリフェッチする命令を挿入し、外側ループ J=1の、内側ループ I=1,2の処理の際に、内側ループ の後半 I=6,7で必要となるデータをプリフェッチする命令を挿入する。ここで、前半ループ40と、後半ループ41の分配は、後半ループ41の処理時間が主記憶ペナルティ時間以上となるようにループ処理を分割する。

【0019】 ことで、内側ループの演算数が小さくループ長が短い場合は、後半ループ41の処理時間を主記憶ペナルティ以上にできない場合がある。この場合、当該ループの処理の時間が、想定した規定値以上のループ長の場合には、完全に主記憶ペナルティを隠蔽できるように、外側ループに関してループ展開を行い、演算量を増加させて、この目的を達成する。

【0020】また、プリフェッチ命令の削減のための内側ループ展開法を用いたコード生成によるコンバイル時間の増大の問題は、コンバイラ処理の後半のコード生成 40処理において、コードを複製する方式により解決できる。

#### [0021]

【発明の実施の形態】以下、本発明のコンパイラにおける実施例を図を参照しつつ説明する。図1にコンパイラ全体の構造を示す。図1のソースプログラム1が、構文解析2によって中間語3に変換される。ループ構造変換部4は、これを入力として、多重ループに関するプリフェッチコードの主記憶レイテンシの隠蔽される割合を高くするために外側ループに関するループ展開を行い、中50

間語5を出力する。最適化部6は、通常の公知の伝統的な最適化を行い、中間語7を出力する。コード生成部8は、プリフェッチ命令を含むオブジェクトコードを9を、中間語7をもとに生成する。本発明は4及び8に係わり、オブジェクトコード9の実行効率を向上させるものである。

【0022】図1のループ構造変換部4のうち、多重ループにおける主記憶アクセスペナルティの効率的な隠蔽に関わる部分を図7に示す。図7に入力するソースプログラム1として、図2のFORTRANプログラムを例としてあげ説明する。図2のDO20(20), DO10(21)はループを示し、これらは2重ループを構成している。このようなプログラムに対して図7は以下のような処理を行い、中間語5に変換する。

【0023】図7の処理は、ソースプログラム中の多重ループ50を順次処理する。判定51は、多重ループを考慮したプリフェッチコードを出力する多重ループを選択する。ここでは、1つのループの中に、1つのループを含む正規型多重ループに限定する。図2のソースプログラムでは、外側ループDO20(20)の中に、1つのループDO10(21)しかない構造であるので適合する。この例で、外側ループDO20(20)の中に、複数のDOループがある場合は、本発明では、多重ループを考慮したプリフェッチ命令は出力しないので、ループ構造が適合しないと判断する。

【0024】処理52では、元々の内側ループ1回あたりの実行サイクル数を推定する。ループ内には、浮動小数点演算が1個。ロード演算が1個。ストア演算が1個であるので、仮定しているアーキテクチャでは、ループ301回あたり、II=max(ceil((1+1)/2), ceil(1/2))=1サイクルである。

【0025】処理53では、次の外側ループでの処理に必要なデータの主記憶アクセスペナルティを完全に隠蔽する最小のループ長MINLを求める。この場合、主記憶アクセスペナルティは75であるので、MINL=75となる。つまり、このままでは、内側ループ長が75未満であると、次の外側ループの実行に必要なデータをオーバヘッドなしに準備できなく、データ待ちの状態が発生することになる。実際のプログラムにおいては、このループ長よりも小さい場合も多い。

【0026】そこで、仮にコンバイラのコード生成の方針として、ループ長40以上であれば主記憶アクセスペナルティを完全に隠蔽できるコードを生成することにする。判定54において、規定値とは、このようにコンバイラのコード生成方針で決めた値である。図2のソースプログラムの場合、MINL=75,規定値=40であるので、判定55に進む。判定55は、外側ループ展開を行っても、もとのプログラムと同一の処理となるか、データ依存関係からの検査を行う。外側ループ展開が可能か否かは、当該多重ループのループ交換が可能か否か

40

れないこともある。

と同一であり、これは公知技術、例えば田中義一、岩沢 京子「ベクトル計算機のためのコンパイル技術」情報処 理, Vol.31,No.6,pp.736-743(1990) に記述してある方 式を用いればよい。図2のソースプログラムではDO2 0(20)とDO10(21)のループを交換しても同 一の結果を得ることができるので、外側ループ展開が可 能である。

【0027】処理56では、外側ループの展開数を決め て、外側ループ展開を中間語上で行う。図の例ではceil . (75/40) = 2倍展開を行い、図8のような結果を 得る。ととでは、中間語として、フォートランライクに 表現したものを用いている。DO20(60)とDO1 0(61)が、外側ループに関して2倍展開した多重ル ープ、DO11(62)は、外側ループに関して2倍展 開した余りループである。以後、余りループに関しては 簡単のため、説明は省略する。判定57により、すべて の多重ループに対して上記の処理を行う。

【0028】その後図1において、通常の中間語に対す る最適化部6の処理を行い、コード生成8を行う。コー ド生成部8において、多重ループにおける主記憶アクセ 20 スペナルティの効率的な隠蔽に関わる部分を図9,図1 0 に示す。

【0029】処理90は、最内側ループ内のプリフェッ チ対象ロードオペランドの選択を行う。選択の方法は、 例えば、公知技術である前記文献ACM 0-89791-535-6/92 /0010/0062 pp.62-73に従う。この結果、図8のDO1 O内のb (i, j) とb (i, j+1) がプリフェッチ 対象オペランドとなるとする。

【0030】処理91は、すべてのプリフェッチ対象オ ベランドについてプリフェッチ命令を挿入すべきループ 30 間隔を求め、それらの最大公約数を求める。キャッシュ ラインサイズが32バイトであるため、b(i, j)を プリフェッチすると、b(i,j)を含む連続32パイ トのデータがプリフェッチされる。仮に、b(i, j)が キャッシュラインの先頭にあれば、b(i, j), b (i+1, j), b(i+2, j), b(i+3, j)のデータプリフェッチされるので、ループ4回に1回の 割合でプリフェッチ命令を発行すればよい。同様に、b (i, j+1) もループ4回に1回でよい。b(i,

j) 及びb (i, j+1) に対するプリフェッチ命令を 挿入すべき間隔はそれぞれ4であるため、全体で、プリ フェッチ命令を発行するループ間隔は上記の最大公約数 であるLC=4となる。

【0031】処理92では、最内側ループのループ範囲 を2つに分割する。この処理を記述した箱のなかに記す ように、ループ後半のループ長は、実行時間を主記憶ア クセスペナルティ以上にするループ長か、または、ルー ブ長が短く、主記憶アクセスペナルティ以上の実行時間 にならないときはもともとのループ長を設定し、ループ 前半の処理は残りとする。従って、前半ループは実行さ 50

【0032】図8のDO10(61)のループ1回あた りの実行推定サイクルは2(= max(ceil((2+2) /2), ceil (2/2)), LC=4, プリフェッチ命 令はb(i, j)とb(i, j+l)に対して出るの で、プリフェッチ命令による実行サイクルは1である。 とのため、最内側ループをLC回実行した場合の推定実 行サイクルは9サイクルとなる。 とのため、後半ループ のループ長は、min(元々のループ長、ceil (75/ 9))となる。その結果、図8のDO10(61)は、 図11の前半ループDO10(65),後半ループDO 11(66)に分割できる。

【0033】図11では、前半ループD010(6 5), 後半ループDO11(66)を、DOループの構 造で示してある。とのままであると、実際のオブジェク トコードとのレベルギャップがあるので、最内側ループ をマシン語レベルに近くした中間語表現を図12に示 す。 ととで、 文70-文78が図11での前半ループDO 10(65)に対応し、文80-88が図11での後半ル ープDO11(66)に対応する。

【0034】 Cとで、文71、文72、文73、文7 6, 文77, 文78でDOループ10の処理を意味す る。変数 c n t に処理すべきループ処理長を 7 1 で設定 し、文76で1つ減じ、文77で繰り返す。文74はも ともとのループ本体での処理、文70はループ制御変数 の初期設定で、文75がループ制御変数の更新を意味す

【0035】同様に、文81, 文82, 文83, 文8 6, 文87, 文88でDOループ11の処理を意味す る。変数cnt に処理すべきループ処理長を81で設定 し、文86で1つ減じ、文87で繰り返す。文84はも ともとのループ本体での処理、文80はループ制御変数 の初期設定で、文85がループ制御変数の更新を意味す

【0036】図10に進んで、処理93は、前半ループ に対するコード生成を行う。まず、内側ループ後半のた めのプリフェッチ命令の挿入を行う。図13の文10 0, 文101, 文102がとのコードである。文100 により、内側ループでceil (75/9) 回先に必要とな るデータのアドレスを計算する。文101がプリフェッ チ命令で、文102が、LC回おきにプリフェッチコー ドを出すためのアドレス更新コードである。次にループ ボディコードを3(=LC-1)回複製して、挿入しす る。図12でのループボディ文74-77を複製し、文 103-文106, 文107-文110となる。ループ 終了判定コード文77, 文106, 文110の飛び先の 1ab1 (文 7 3) から、ループ直後の1ab2 (文 7 8) に変 更する。そして、再度、ループボディのコードを複製 し、文111-114に挿入する。

【0037】処理94は、後半ループに対するコード生

成を行う。前半ループとの違いは、前半ループでは、ブ リフェッチ対象オペランドの先頭アドレスが、当該外側 ループでの内側ループ処理の後半で必要になるデータに 対し、1 つ先の外側ループの内側ループ処理前半で必要 となるデータである点である。最初に、次の外側ループ で必要になるデータのためのプリフェッチ命令の挿入を 行う。図14の文120,文121, 文122がこのコード である。文120により、次の外側ループで必要となる データのアドレスを計算する。文121がプリフェッチ 命令で、文122が、L C回おきにプリフェッチコードを 出すためのアドレス更新コードである。次にループボデ ィコードを3(=LC-1)回複製して、挿入する。図1 2でのループボディ文84-87を複製し、文123-文126, 文127-文130となる。ループ終了判定 コード文87, 文126, 文130の飛び先の7ab3(文 83) から、ループ直後の1ab4 (文88) に変更する。 そして、再度、ループボディのコードを複製し、文13 1-134に挿入する。

【0038】処理95は、多重ループの入り口に、初期プリフェッチ命令を挿入する。図13の文140がこれ 20である。すなわち、最初の外側ループ繰り返し時における、最初の内側ループの最初に必要となるデータは、とこでプリフェッチをかける。しかし、このプリフェッチは、他の処理とオーバラップができないので、主記憶ペナルティが隠蔽できない部分である。図6のj=1, i=1, 2, 3, 4, 5のプリフェッチ処理に相当する処理である。

#### [0039]

【発明の効果】本発明のコード生成方式により、多重ループにおいて、アクセスするデータ領域がキャッシュ容 30 量を超える場合も、内側ループ処理を2つのループに分け、前半ループに必要なデータは、1つ前の外側ループの繰り返し時の後半ループでデータのプリフェッチを開始し、後半ループで必要なデータは、前半ループでデータのプリフェッチを開始するため、主記憶ペナルティを隠蔽することができる。

【0040】例えば従来の手法では、先に述べたように、外側ループ長Mに依存せず、内側ループ長Nが100の場合、全体の時間の内40%がデータ待ちの状態、内側ループ長Nが50の場合は、全体の時間の内56% 40がデータ待ちの状態であった。これに対して本発明の実米

\*施によれば、最内側ループ長が9 (=cei1(75/9)) 以上であれば、外側ループの1回目の処理を除き、2回目以降の処理では、完全に主記憶ペナルティを隠蔽できる。即ち、内側ループ長が100,50のケースとも、外側ループ長が非常に大きければ、データ待ちの状態は発生しない。外側ループ長が50の場合、内側ループ長が100,50の場合は、全体の時間の内、1.3%,2.6%がデータ待ちの状態で、外側ループ長が10の場合、内側ループ長が100場合、内側ループ長が100場合、内側ループ長が100場合、大側ループ長が10の場合は、全体の時間の内、6.25%,11.8%がデータ待ちの状態と改善することができる。

【図面の簡単な説明】

【図】】コンパイラ全体の構成図。

【図2】ソースプログラム例を示す図。

【図3】従来法による、内側ループ展開後のコード例を 示す図。

【図4】従来法による多重ループにおけるプリフェッチ 命令を使用したコード例を示す図。

【図5】従来法による実行の様子を示した説明図。

【図6】本発明による実行の様子を示した説明図。

【図7】本発明による多重ループの外側ループの展開方 式の処理フロー図。

【図8】本発明による外側ループ展開後のコード例を示 す図

【図9】本発明による多重ループにおけるプリフェッチ コード生成処理のフロー図。

【図10】本発明による多重ループにおけるプリフェッ チコード生成処理のフロー図。

【図11】本発明によるループ分割後のコード例を示す 図。

【図12】本発明によるループ分割後の機械語に近いコード例を示す図。

【図13】本発明による多重ループにおけるプリフェッ チ命令を使用したコード例を示す図。

【図14】本発明による多重ループにおけるプリフェッチ命令を使用したコード例を示す図。

# 【符号の説明】

1…ソースプログラム、2…構文解析部、3…中間語、4…ループ構造変換部、5…中間語、6…最適化部、7…中間語、8…コード生成部、9…オブジェクトコード。

【図2】

図2



[図7]

図 7



7

関10

前半ルーブに対するコード生成
・内側ルーブ後半のためのブリフェッチ命令の挿入
・ループボディのコードを(LC-1)個複製して
挿入
(ループ終了時の分岐先をルーブ直後に変更)
・ループボディコードを1個複製して挿入

94

後半ループに対するコード生成
・次の外側ループのためのブリフェッチ命令の挿入
・ループボディのコードを(LC-1)個複製して
挿入
(ループ終了時の分岐先をループ直後に変更)
・ループボディコードを1個複製して挿入

95

初期ブリフェッチ命令を多重ループの入り口に

#A

【図10】

【図11】

一因-1-1-

[図12]

図12

DO 20 j=1, M-1, 2 65

DO 10 i=1, N-ceil(75/9)
a(i, j)=b(i, j)+s
a(i, j+1)=b(i, j+1)+s

10 continue

DO 11 i=
max(1,
N-ceil(75/9)+1), N
a(i, j)=b(i, j)+s
a(i, j+1)=b(i, j+1)+s

11 continue

20 continue

DO 20 j=1, M-1, 2

i=1
cnt=N-ceil(75/9)-1
if (cnt=0) goto lab2 -72
lab1:
a (i, j) =b (i, j) +s
a (i, j+1) =b (i, j+1) +s
i=i+1
cnt=cnt-1
if (cnt ≠ 0) goto lab1 -77

lab2:

i=max(1, N-ceil(75/9)) -80
cnt=N-max(1, N-ceil(75/9)) -80
cnt=N-max(1, N-ceil(75/9)) +1)
if (cnt=0) goto lab4 -82
lab3:
a (i, j) =b (i, j) +s
i=i+1
cnt=cnt-1
if (cnt +0) goto lab3 -87
cnt=cnt-1
if (cnt +0) goto lab3 -87
88

20 continue

【図13】

図13

DO 1 i=1, min (N, ceil (75/9))

prefetch b (k, 1)

prefetch b (k, 2)

k=k+4

continue DO 20 j = 1, M-1, 2

~70 ~71 ~100 ~72 ~73 }~101 

lab2:

【図14】

a (i, j) = b (i, j) +s
a (i, j+1) = b (i, j+1) +s
i = i+1
cnt = cnt - l
i f (cnt + 0) goto lab3 lab4:

20 continue

(